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Abstract 


In der Mitte des 20. Jahrhunderts gab es diverse Versuche, die Klassifikation von 
Sprachen mit Hilfe von Wortlisten, die dem Grundvokabular der betreffenden 
Sprachen entnommen sind, zu automatisieren. Diese Methoden wurden und wer- 
den in der historischen Sprachwissenschaft gemeinhin kritisch diskutiert, da sich 
die erzielten Ergebnisse haufig als fehlerhaft erwiesen. 

In den letzten Jahren erleben wir einen neuen Aufschwung lexikostatistischer 
und glottochronologischer Ansätze. Deren Erfolgsaussichten sind heute wesentlich 
besser als vor einem halben Jahrhundert, da uns jetzt große Mengen an sprachver- 
gleichenden Daten in elektronischer Form zur Verfügung stehen und die Compu- 
terlinguistik und Bioinformatik mächtige Werkzeuge bereitstellt, diese Daten statis- 
tisch auszuwerten. 

Im vorliegenden Artikel wird eine Fallstudie vorgestellt, die das Potenzial lexiko- 
statistischer Methoden im 21. Jahrhundert illustriert. 


1. Einleitung 


Einer der faszinierendsten Forschungsgegenstände der historischen Sprach- 
wissenschaft ist die Frage, in welchen Verwandtschaftsverhältnissen Spra- 
chen zueinander stehen. Das Erkenntnisideal wäre ein Famlienstammbaum 
aller bekannter Sprachen. 

Die traditionelle komparative Methode strebt an, Sprachwandelprozesse 
so weit wie möglich zu rekonstruieren; die Erstellung eines Sprachstamm- 
baums ergibt sich dabei in gewisser Weise als Nebeneffekt. Diese Vorge- 
hensweise hat sich in den vergangenen zwei Jahrhunderten als schr erfolg- 
reich erwiesen. Besonders für historisch gut dokumentierte Sprachgruppen 
wie die indoeuropäischen oder die semitischen Sprachen sind die erreichten 
Rekonstruktionen wie auch die Kenntnisse über die Verwandtschaftsverhält- 
nisse innerhalb dieser Gruppen sehr detailliert. 

Allerdings hat die historisch-komparative Methode einige inhärente Be- 
grenzungen. Nicht nur fehlen für die meisten Sprachen der Welt schriftliche 
Überlieferungen, die zur Rekonstruktion herangezogen werden können. Die 
Zeittiefe möglicher Rekonstruktionen ist vermutlich auf maximal zehn Jahr- 
tausende begrenzt (wobei es höchst kontrovers ist, ob diese Schallmauer 
deutlich näher oder vielleicht sogar etwas ferner liegt). Nicht zuletzt ist his- 
torisch-komparative Rekonstruktion sehr zeitaufwändig und setzt viel Erfah- 


€ Diese Forschung wurde im Rahmen des ERC Advanced Grant 324246 Language Evolution: The 
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rung und Expertise voraus. Auch aus diesem Grund ist es unrealistisch zu 
erwarten, dass unser Wissen über die Geschichte etwa der altamerikanischen 
Sprachen oder der Sprachen Papua-Neuguineas jemals ähnlich detailliert sein 
wird wie z.B. das über die indoeuropäischen Sprachen. 

Es ist daher lohnenswert zu untersuchen, ob Verwandtschaftsbeziehun- 
gen zwischen Sprachen auch dann erhellt werden können, wenn eine voll- 
ständige Rekonstruktion der historischen Prozesse nicht möglich ist. In den 
vergangenen Jahrzehnten hat es immer wieder Versuche gegeben, hier Fort- 
schritte zu machen.' Die Lexikostatistik war ein derartiger Versuch, der in 
der Mitte des zwanzigsten Jahrhunderts von dem amerikanischen Linguis- 
ten Morris Swadesh entwickelt wurde. Sie ist seither — möglicherweise zu 
Unrecht — in Misskredit geraten und wird in Einführungsdarstellungen 
gerne als Irrweg dargestellt. Allerdings sind wir heute in einer wesentlich 
komfortableren Position als Swadesh zu seiner Zeit, da sich sowohl der Zu- 
gang zu großen Mengen an sprachvergleichenden Daten als auch die Tech- 
niken und die Hardware für numerische Auswertungen dieser Daten auf 
gerade atemberaubende Weise verbessert haben. In diesem Aufsatz möchte 
ich darlegen, dass Lexikostatistik mit den Mitteln des Jahres 2013 ein durch- 
aus ernstzunehmendes Forschungsprogramm ist. 


2. Lexikostatistik nach Swadesh 


Die von Swadesh vorgeschlagene Vorgehensweise besteht aus vier Schritten 
(siehe z.B. Swadesh 1971): 


1) Erstellung einer Liste von Konzepten, die in (nahezu) allen Sprachen 
lexikalisiert werden und deren Lexikalisierungen selten zwischen Spra- 
chen entlehnt werden. 

2) Sammlung von Wortlisten, also der Lexikalisierungen dieser Konzept- 
liste, für die zu untersuchenden Sprachen. 

3) Bestimmung, welche synonymen Ausdrücke aus verschiedenen Spra- 
chen (innerhalb dieser Wortlisten) kognat” zueinander sind. 

4) Für jedes Sprachpaar: Berechnung des Prozentsatzes der kognaten unter 
allen Wortpaaren als Maß für die Verwandtschaft der beiden Sprachen. 


Am einflussreichsten waren hier wohl die Arbeiten von Joseph Greenberg, siche z.B. Green- 
berg (1971, 1987, 2000, 2002). 

Zwei Wortformen sind &agnat, wenn sie sich aus derselben Ursprungsform entwickelt haben. 
So sind etwa das deutsche ‚Wolf und das englische ,wulf* kognat, da beide Formen aus dem 
urgermanischen ‚*wulfaz‘ abgeleitet sind. Zwei Wortformen gelten allerdings nicht als kog- 
nat, wenn die Verwandtschaft durch Entlehnung vermittelt ist (wie z.B. deutsch ‚Ziegel‘ 
und italienisch ‚tegola‘; zwar gehen beide Formen auf das lateinische ‚tegula‘ zurück, aber 
diese Verwandtschaft ist durch eine Entlehnung aus dem Lateinischen ins Althochdeutsche 
vermittelt). 


n 
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Jeder dieser Schritte ist mit einer Reihe von Problemen behaftet. Swadesh 
selbst kompilierte mehrere Versionen einer universalen Konzeptliste, und 
es wurde nie ein Konsens erzielt, wie eine ideale Liste zusammengesetzt 
sein soll. Auch gibt es nicht immer genau eine Entsprechung für jedes der 
fraglichen Konzepte in einer gegebenen Sprache. Für das Swadesh-Kon- 
zept Pfad etwa gibt es im Deutschen die Entsprechungen ‚Pfad‘ und ‚Weg‘. 
Weiterhin stellt sich das Problem, ob bei flektierenden Sprachen für Nomina 
der Nominativ und für Verben der Infinitiv herangezogen werden soll oder 
lediglich die Wurzel.’ 

Der dritte Schritt ist vermutlich der schwierigste. In vielen Fällen ist die 
Frage, ob zwei Wörter aus verschiedenen Sprachen kognat sind, grundsätz- 
lich nicht eindeutig zu entscheiden. So listet z.B. die „Indo-European Lexical 
Cognacy Database“ als Lexikalisierungen (siehe http://ielex.mpi.nl/) des Swa- 
desh-Konzepts Ehefrau für das Deutsche ‚Frau‘ und für das Färöische (u.a.) 
‚hüsfru‘, was unschwer als genaue morphologische Entsprechung des deut- 
schen ‚Hausfrau‘ zu identifizieren ist. Hier handelt es sich also um partielle 
Kognatheit. Das deutsche Wort ist kognat zu einem Morphem des färöi- 
schen Wortes, aber nicht zum gesamten Wortstamm. 

Abgeschen von diesem grundsätzlichen Problem ist die Bestimmung der 
Kognatheit auch unter praktischem Gesichtspunkt schwierig, da ein siche- 
res Urteil für einen Experten eine Kenntnis der betroffenen Sprachfamilie 
voraussetzt, also genau die Information, die durch die Lexikostatistik erst 
gewonnen werden soll. Eine bekannte Illustration dieses Problems ist das 
Wortpaar (russisch) ‚sto‘ vs. (deutsch) ‚hundert‘. Dank unserer genauen 
Kenntnisse der Lautverschiebungen, die vom Urindoeuropäischen zum 
Russischen bzw. zum Deutschen stattgefunden haben, wissen wir, dass sich 
beide Worte auf das rekonstruierte ‚*kmtom‘ zurückführen lassen. Die bei- 
den Wörter sind also kognat. Bei einer weniger gut untersuchten Sprachfa- 
milie würde eine derartige Kognatheitsbeziehung jedoch vermutlich nicht 
erkannt. 

Nicht zuletzt gibt der Prozentsatz der kognaten Wortpaare nur eine 
recht grobe Schätzung des Grades der Verwandtschaft zwischen zwei Spra- 
chen. Der Grad der Verwandtschaft steht tendenziell in inverser Relation 
zu der Zeit, die seit der Aufspaltung der gemeinsamen Proto-Sprache ver- 
flossen ist. 

Dieses Problem lässt sich wiederum anhand der Indo-European Lexi- 
cal Cognacy Database illustrieren. Der Prozentsatz der als urindoeuropäi- 
sche Erbwörter ausgewiesenen Einträge pro Sprache variiert zwischen 20% 
(z.B. für das Paschtunische) und über 50% (für mehrere romanische Spra- 


Wenn die Kognatheits-Urteile im dritten Schritt von Experten manuell vorgenommen wer- 
den, ist das unproblematisch, aber bei automatischen Verfahren sind diese Entscheidungen 
durchaus relevant. 
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chen). Die Ersetzungsrate entlang der verschiedenen Äste der indoeuropä- 
ischen Sprachfamilie ist also offensichtlich nicht konstant. Das spiegelt sich 
auch in den geschätzten Ähnlichkeiten zwischen lebenden Sprachen wieder. 
In der genannten Datenbank sind 22,5% der Swadesh-Wörter für Spanisch 
und Hindi kognat, aber nur 14% für Spanisch und Paschtunisch. Wir wissen 
jedoch mit hoher Sicherheit, dass Hindi und Paschtunisch beide zum indo- 
iranischen Zweig des Indoeuropäischen gehören, Spanisch jedoch zum ita- 
lischen Zweig, so dass die Zeittiefe seit der letzten gemeinsamen Ursprache 
für Spanisch/Paschtunisch und Spanisch/Hindi identisch sein muss. 


3. Elektronisch verfügbare Swadesh-Listen 


Mit den Methoden der elektronischen Datenverarbeitung lassen sich Swa- 
desh-Listen wesentlich effizienter und im größeren Maßstab auswerten als 
zu Swadeshs Lebzeiten. 

Die erste elektronisch verfügbare größere Sammlung von Swadesh-Lis- 
ten war die auf Initiative von Isidore Dyen seit den sechziger Jahren des 
vorigen Jahrhunderts zusammengestellte „Comparative Indo-European 
Database“ (erläutert in Dyen/Kruskal/Black 1992). Diese Daten wurden 
ursprünglich auf Lochkarten kodiert und um 1990 auf elektronische Spei- 
chermedien übertragen. Sie umfasst Übersetzungen von 200 Swadesh-Kon- 
zepten in 95 indoeuropäische Sprachen und Dialekte sowie Zuordnungen 
aller Einträge zu Kognatenklassen. Die Wortformen selbst sind in der Or- 
thographie der jeweiligen Sprache angegeben, so dass sich daraus nicht ohne 
weiteres verlässliche phonetische Informationen gewinnen lassen. Diese Da- 
tenbank wird gegenwärtig von der Gruppe „Evolutionary Processes in Lan- 
guage and Culture“ am Max-Planck-Institut für Psycholinguistik Nijmegen 
unter der Leitung von Michael Dunn als die bereits erwähnte Indo-Europe- 
an Lexcial Cognacy Database weitergeführt, umfasst inzwischen 152 Spra- 
chen und Dialekte und enthält für einen Großteil der Einträge auch IPA- 
Transkriptionen. 

Seit einigen Jahren wird von einer Gruppe unter der Leitung von Simon 
Greenhill von der University of Auckland in Neuseeland die „Austrone- 
sian Basic Vocabulary Database“ im Internet zur Verfügung gestellt (siche 
Greenhill/Blust/Gray 2008 und die Webseite http://language.psy.auckland.ac.nz/ 
austronesian/). Dabei handelt es sich um eine Sammlung von Swadesh-Listen 
mit jeweils über 200 Einträgen aus (zum gegenwärtigen Zeitpunkt) unge- 
fähr 1000, größtenteils austronesischen, Sprachen. Die Wortformen sind in 
IPA-Transkriptionen angegeben. Außerdem werden, wie auch in der oben 
genannten indoeuropäischen Datenbank, von Experten vorgenommene 
Kognatheitsurteile kodiert. 
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Einen ähnlichen Umfang hat die Datenbank, die im Rahmen des ,,Auto- 
mated Similarity Judgment Program“ (ASJP; siehe Wichmann et al. 2012 bzw. 
http://wwwstaff.eva.mpg.de/~wichmann/ASJPHomePage.htm) unter der Leitung von 
Soren Wichmann am Max-Planck-Institut für Evolutionäre Anthropologie 
in Leipzig zusammengestellt wurde. Das ASJP strebt eine repräsentative, 
möglichst vollständige Erfassung aller lebenden Sprachen und Dialekte an. 
Gegenwärtig sind ca. 5.600 Sprachvarietäten aus allen Kontinenten und 
nahezu allen Sprachfamilien erfasst. Das ASJP beschränkt sich dabei auf nur 
40 Swadesh-Einträge, die auf der Basis einer kleineren Pilotstudie als beson- 
ders stabil identifiziert wurden. Auf die Erhebung von Kognatheitsurteilen 
wird dabei vollständig verzichtet. Die Wortformen sind in einer einheitli- 
chen phonetischen Transkription kodiert, die im Vergleich zum IPA stark ver- 
einfacht ist. Es werden lediglich 41 verschiedene Segmente unterschieden, 
die z.T. durch Diakritika modifiziert werden. Um dem Leser einen Eindruck 
zu vermitteln, sind in Tabelle 1 die ASJP-Listen für das Deutsche und das 
Englische angegeben. („XXX“ markiert dabei einen fehlenden Eintrag.) 


Konzept Deutsch Englisch Konzept Deutsch Englisch 


ich iX Ei Nase naz3 nos 
du du yu Zahn ch-an tu8 
wir vir wi Zunge ch~uN3 t3N 
eins ains 8is Knie kni ni 
zwei cvai 8Et Hand hant hEnd 
Mensch mEnS pers3n Brust brust brest 
Fisch fiS fiS Leber leb3r liv3r 
Hund hunt dag trinken triNk3n drink 
Laus laus laus sehen ze3n si 
Baum baum tri hören her3n hir 
Blatt blat lif sterben Sterb3n dEi 
Haut haut skin kommen kh-om3n k3m 
Blut blut bl3d Sonne zon3 s3n 
Knochen knoX3n bon Stern StErn star 
Horn horn horn Wasser vas3r wat3r 
Ohr XXX ir Stein Stain ston 
Auge aug3 Ei Feuer foia fEir 


Tab. 1: ASJP-Listen für Deutsch und Englisch 


Datenmengen in dieser Größenordnung lassen sich selbstredend nicht 
manuell auswerten. Es ist daher sinnvoll, auf algorithmische Methoden zu- 
rückzugteifen, wie sie in den letzten zwei bis drei Jahrzehnten in der Com- 
puterlinguistik und der Bioinformatik entwickelt wurden. 


Unauthenticated 
Download Date | 3/22/19 12:21 PM 


202 Gerhard Jager 


4. Bioinformatische Methoden für sprachliche Daten 


4.1  Phylogenetische Inferenz 


Sowohl die empirische Basis des lexikostatistischen Vorgehens wie auch die 
gewonnenen Ergebnisse sind also mit großer Unsicherheit behaftet. Diese 
Situation ist aber für datenorientierte Arbeit generell nicht ungewöhnlich 
und für sich genommen kein Grund, die Methode zu verwerfen. Die größte 
Schwäche der klassischen Lexikostatistik ist m.E. ironischerweise die Tatsa- 
che, dass sie zwar quantitativ arbeitet, jedoch auf statistische Methoden im 
engeren Sinne verzichtet. Für statistisches Arbeiten ist es gerade typisch, 
auf der Basis unsicherer Daten unsichere Inferenzen zu ziehen, jedoch den 
Grad der Unsicherheit der Ergebnisse zu quantifizieren. 

Angenommen, wir haben für eine Gruppe von Sprachen mit lexiko- 
statistischen Methoden die paarweisen Ähnlichkeiten gewonnen. Daraus 
lassen sich zwar nicht mit Sicherheit die zeitlichen Abstände zwischen zwei 
beliebigen Sprachen berechnen, aber es ist zu erwarten, dass diese Ähnlich- 
keiten negativ mit den tatsächlichen Abständen korreliert sind. Eine be- 
stimmte Hypothese über die Verwandtschaftsverhältnisse, also ein hypo- 
thetischer Sprachstammbaum, erklärt die berechneten Ähnlichkeiten umso 
besser, je stärker diese mit den angenommenen zeitlichen Abständen korre- 
lieren. Daher kann man umgekehrt von den berechneten Ähnlichkeiten 
ausgehen und eine Hypothese suchen, die diese Werte am besten erklärt. 

Strukturell ähnliche Probleme wurden in den letzten zwanzig bis drei- 
Big Jahren in der Bioinformatik gründlich untersucht. Die Bioinformatik 
befasst sich u.a. mit der Frage, wie die evolutionäre Geschichte von Or- 
ganismen mit algorithmischen und statistischen Methoden rekonstruiert 
werden kann. 

Auch in der Biologie ist die Ähnlichkeit zweier Organismen oder Popu- 
lationen — die entweder über geteilte phänotypische oder genetische Merkma- 
le bestimmt werden kann — ein Hinweis auf die zeitliche Distanz zum letz- 
ten gemeinsamen Vorfahren im Verlauf der Evolution, und auch in der 
Biologie ist diese Abschätzung häufig nur näherungsweise möglich. Ein be- 
sonders gut untersuchtes Problem ist die Frage, wie aus einer Ähnlichkeits- 
matrix ein Stammbaum berechnet werden kann, der diese Ähnlichkeitsmatrix 
optimal erklärt. Es ist zwar nicht möglich, mit realistischem Rechenaufwand 
den besten Stammbaum zu ermitteln,’ aber es existieren sehr gute Nähe- 
rungsverfahren. Im Folgenden werde ich mich dazu der ‚Fastme‘-Methode 
(Desper/Gascuel 2002) bedienen.’ 


Dieses Problem ist NP-vollständig, also für größere Datenmengen praktisch nicht lösbar. 
3 Dabei wird zunächst mit Hilfe des Neighbor-Joining-Algorithmus (Saitou/Nei 1987) oder 
eines ähnlichen distanzbasierten Verfahrens ein phylogenetischer Baum berechnet und die- 
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4.2 Sequenzalinierung 


Ein wesentlicher Schritt der lexikostatistischen Methode ist die Erhebung 
von Kognatheitsurteilen. Wie oben ausgeführt, ist dieser Schritt nicht un- 
problematisch. Er muss manuell von Experten vorgenommen werden, die 
ihre Urteile wiederum auf Theorien über die historische Verwandtschaft der 
zu vergleichenden Sprachen stützen. Daher ist es unvermeidlich, dass es bei 
weniger gut untersuchten Sprachfamilien einen größeren Anteil an ‚false 
negatives‘ gibt als z.B. beim Indoeuropäischen. Auch liegen relativ unkon- 
troverse Kognatheitsurteile im ausreichendem Umfang bislang lediglich für 
das Indoeuropäische und das Austronesische vor. Daher werde ich diesen 
Schritt durch ein automatisiertes Verfahren ersetzen, das die Ähnlichkeit‘ 
zweier Wortformen aus der ASJP-Datenbank quantifiziert. Dieses Vorge- 
hen ist mit Joseph Greenbergs ‚lexical mass comparison‘ verwandt. Im Un- 
terschied zu Greenberg ist das von mir verwendete Ähnlichkeitsmaß jedoch 
klar definiert, so dass meine Methode vollständig reproduzierbar ist. 

Die vermutlich einfachste Methode, die Ähnlichkeit zweier Symbolket- 
ten zu quantifizieren, basiert auf der sogenannten ‚Levenshtein-Distanz‘ 
(bzw. Editier-Distanz). Die Levenshtein-Distanz zweier Ketten &1 und &2 
ist die minimale Zahl von Editieroperationen (also Einfügen, Tilgen oder 
Ersetzen eines einzelnen Symbols), die 41 in #2 überführt. Das sei anhand 
der ASJP-Einträge (dt.) horn und (lat.) kornu (für das Konzept Horn) illus- 
triert. Es sind zwei Editierschritte nötig: Ersetzung von h durch k und Ein- 
fügung des u. 

Die Levenshtein-Distanz lässt sich auch als die Zahl der Nicht-Über- 
einstimmungen in der optimalen Alinierung der betreffenden Symbolketten 
auffassen. Das ist in Abbildung 1 illustriert. 


horn 


| | | 
kornu 


Abb. 1: Levenshtein-Alinierung 


Die ‚normalisierte Levenshtein-Distanz‘ ergibt sich, wenn man diese Dis- 
tanz durch die Länge der längeren Kette teilt. Im Beispiel ergibt sich dabei 
ein Wert von 0,4. 


ser dann in einem zweiten Schritt durch ,nearest neighbor interchange‘ so lange lokal opti- 
miert, bis keine Verbesserung mehr möglich ist. 

Im Folgenden setze ich stillschweigend voraus, dass sich ein Ähnlichkeitsmaß leicht in ein 
Distanzmaß umrechnen lässt und umgekehtt. 
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Die paarweise Distanz zweier Wortlisten lasst sich jetzt leicht als die 
durchschnittliche Distanz zwischen ihren korrespondierenden Eintragen 
definieren. 

Wenn man mit dieser Methode die paarweisen Distanzen der westger- 
manischen Sprachen und Dialekte aus der ASJP-Datenbank berechnet und 
daraus mit Hilfe des fastme-Verfahrens einen phylogenetischen Baum ge- 
winnt, erhält man das in Abbildung 2 gezeigte Ergebnis. Dieser Stamm- 
baum stimmt mit einer Expertenklassifikation zwar nicht in jedem Detail 
überein, liefert aber eine recht gute Annäherung, 


CIMBRIAN 

SCOTS 

ENGLISH 
NORTH_FRISIAN_AMRUM 
FRISIAN_WESTERN 
BRABANTIC 

DUTCH 

AFRIKAANS 

ZEEUWS 

WESTVLAAMS 
FRANS_VLAAMS 
NORTHERN_LOW_SAXON 
EASTERN_FRISIAN 
PLAUTDIETSCH 
LIMBURGISH 
LUXEMBOURGISH 
BERNESE_GERMAN 
ALSATIAN 
STANDARD_GERMAN 
SWABIAN 


SAXON_UPPER 


Abb. 2: Stammbaum der westgermanischen Sprachen: einfache Levenshtein-Alinierung 


Wenn man dieses Verfahren jedoch auf die gesamte ASJP-Datenbank’ an- 
wendet, zeigt sich allerdings schnell ein schwerer Defekt. Wenn zwei Spra- 
chen kleine Lautinventare haben, die sich überlappen, ergeben sich eine grö- 
Bere Anzahl von zufälligen Übereinstimmungen bei der Alinierung als beim 
Vergleich von Sprachen mit großen oder nicht so stark überlappenden Laut- 
inventaren. Das lässt sich anhand der Grafik in Abbildung 3 erläutern. 
Diese Grafik wurde mit Hilfe der Software CLANS (Frickey/Lupas 2004) 
erstellt. Jeder Kreis repräsentiert eine Sprache. Sprachen mit geringer Dis- 
tanz entsprechen nahe beieinanderliegenden Punkten und vice versa. Die 
Punkte sind entsprechend der Zuordnung der jeweiligen Sprache zu Sprach- 
familien nach dem „World Atlas of Language Structures“ (WALS; siche 


2 Genauer gesagt: auf die lebenden oder kürzlich ausgestorbenen Sprachen und Dialekte in 
der Datenbank unter Ausschluss der Kreolsprachen. 


Unauthenticated 
Download Date | 3/22/19 12:21 PM 


Lexikostatistik 2.0 205 


Haspelmath et al. 2008) in Graustufen eingefärbt. Es ist leicht zu sehen, dass 
es im Zentrum der Grafik eine große Zahl von Sprachen aus verschiedenen 
Sprachfamilien gibt, die eine geringe Distanz zueinander haben. Eine ge- 
nauere Inspektion der Daten ergab, dass es sich dabei in der Tat um Spra- 
chen mit kleinem Lautinventar handelt, diese Ähnlichkeiten also nicht auf 
genetischer Verwandtschaft beruhen. 


e Clustering of /home/gjaeger/python/clans/firstshot.clans EditGroups | 
File Misc Draw Windows Help 


INFO: blast=blastp refdb= 


Change name Change color 
‘Add selected Set as selected 


Show selected | _____selecimove 
Joo | Select al 
Li show connections 


Move up Move down 


Update Delete 


Zoom on selected 


Abb. 3: Visualisierung der Ähnlichkeiten in ASJP: einfache Levenshtein-Alinierung 


Um diesen Effekt zu neutralisieren, ist es nötig, die Distanz zwischen zwei 
Wortformen für die phonetischen Charakteristika der verglichenenen Spra- 
chen zu kalibrieren. 

Das hierbei angewandte Verfahren sei anhand des Vergleichs von Eng- 
lisch und Schwedisch illustriert.’ Im ersten Schritt werden die normalisier- 
ten Levenshtein-Distanzen für alle 1.600 Wortpaare aus den beiden Spra- 
chen berechnet. Ein Teil der so gewonnenen 40*40-Matrix ist in Tabelle 2 
dargestellt. Die Einträge entlang der Diagonale geben die Distanzen zwi- 
schen synonymen Wortformen wieder. Die restlichen Einträge stellen eine 
Stichprobe der Verteilung von Distanzen dar, die zwischen zufällig gewähl- 
ten, nicht verwandten englisch-schwedischen Wortpaaren bestehen. Je stär- 
ker zwei Sprachen miteinander verwandt sind, umso mehr sollten sich die 
Verteilung der Werte auf der Diagonale und die Verteilung der restlichen 


& Eine detailliertere Darstellung des im folgenden skizzierten Verfahrens findet sich in Jäger 


(2013). 
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Werte unterscheiden. Dabei ist zu erwarten, dass bei verwandten Sprachen 
die Diagonal-Einträge deutlich kleiner sind als die anderen Einträge. Für 
das Sprachpaar Englisch-Schwedisch ist das in der Tat der Fall. Die beiden 
Verteilungen sind in der Grafik links in Abbildung 4 dargestellt. 


Ei yu wi = w3n tu fiS 


yog 1 2/3 1 1 1 1 
du 1 1/2 1 1 Ya 1 
vi 1/2 1 1/2 1 1 2/5 
et 1 1 1 1 1 1 
tvo 1 1 1 1 2/3 1 
fisk 3/4 1 3/4 1 1 1/2 


Tab. 2: Normalisierte Levenshtein-Distanzen: Englisch/Schwedisch 2/3 


Beim Vergleich der nicht verwandten Sprachen Englisch und Türkisch er- 
gibt sich im Kontrast dazu, dass die Diagonalwerte im Schnitt sogar etwas 
größer sind als die restlichen Werte, synonyme Wortpaare sich also sogar 
etwas stärker voneinander unterscheiden als Zufallswortpaare (siehe rechte 


Grafik in Abbildung 4). 


English/Swedish English/Turkish 


a —— 
gA o 


T T T T 
diagonal off diagonal diagonal off diagonal 


Abb. 4: Verteilung von Levenshtein-Distanzen 


Mit Hilfe eines nicht-parametrischen statistischen Tests lasst sich die Wahr- 
scheinlichkeit abschatzen, dass die Diagonalwerte in einer solchen Matrix der- 
selben Verteilung entstammen wie die restlichen Werte. Diese Wahrschein- 
lichkeit (in statistischer Terminologie: p-Wert) gibt ein inverses Maß für den 
Grad der Verwandtschaft der verglichenen Sprachen. Für Englisch-Schwe- 
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disch beträgt dieser Wert ungefähr 10°”, für Englisch-Türkisch 0,67. Es ist 
also praktisch ausgeschlossen, dass die Diagonalverteilung für Englisch- 
Schwedisch zufällig so stark von der sonstigen Verteilung abweicht, wäh- 
rend das Muster bei Englisch-Türkish dem entspricht, was man bei einer 
Zufallsverteilung erwartet. 

Aus diesen p-Werten werden durch nicht-lineare Transformationen 
AhnlichkeitsmaBe gewonnen, die die Basis fiir phylogenetische Inferenz 
liefern. 

In Tabelle 3 sind die so berechneten Ahnlichkeiten des Standard-Deut- 
schen zu einer Reihe ausgewählter Sprachen und Dialekte aufgeführt. 


Schwäbisch 26,13 
Zimbrisch 20,28 
Niederländisch 23,75 
Englisch 17,45 
Urindoeuropäisch 10,26 
Latein 9,23 
Spanisch 8,95 
Hindi 8,70 
Russisch 8,36 
Türkisch 6,33 
Ungarisch 6,84 


Tab. 3: Ähnlichkeiten zum Standard-Deutschen: kalibrierte Levenshtein-Alinierung 


SCOTS 

ENGLISH 

CIMBRIAN 
LUXEMBOURGISH 
SWABIAN 
STANDARD_GERMAN 
SAXON_UPPER 
BERNESE_GERMAN 
ALSATIAN 
PLAUTDIETSCH 
NORTHERN_LOW_SAXON 
EASTERN_FRISIAN 
LIMBURGISH 
NORTH_FRISIAN_AMRUM 
FRISIAN_WESTERN 
BRABANTIC 

DUTCH 

AFRIKAANS 
WESTVLAAMS 
FRANS_VLAAMS 


ZEEUWS 


Abb. 5: Stammbaum der westgermanischen Sprachen: kalibrierte Alinierung 
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Um das Illustrationsbeispiel der westgermanischen Sprachgruppe weiterzu- 
führen, ist in in Abbildung 5 der auf der Basis der kalibrierten Levenshtein- 
Distanzen berechnete Stammbaum dargestellt. Dieser Stammbaum unter- 
scheidet sich nicht wesentlich von dem in Abbildung 3 gezeigten. 

Ein offensichtlicher Mangel dieser Stammbäume ist die Tatsache, dass 
das Zimbrische — ein im Trentino gesprochener bairischer Dialekt — ganz an 
der Peripherie der westgermanischen Sprachen angesiedelt ist, obwohl es sich 
dabei um einen oberdeutschen Dialekt handelt. Es ist erhellend, die zimbri- 
sche ASJP-Liste genauer zu betrachten. Sie ist in Tabelle 4 wiedergegeben. 


Konzept Deutsch Zimbrisch Konzept Deutsch Zimbrisch 


ich iX ix Nase naz3 naza 

du du du Zahn ch~an XXX 
wir vit bar Zunge ch~uN3 suNa 
eins ains XXX Knie kni XXX 
zwei cvai sben Hand hant hant 
Mensch mEnS menEs Brust brust prust 
Fisch AS XXX Leber leb3r lEbara 
Hund hunt hunt trinken triNk3n trinkh~ 
Laus laus laus sehen ze3n zeg 
Baum baum pom horen her3n hor 
Blatt blat placa sterben Sterb3n sterb 
Haut haut XXX kommen kh-om3n kh-Em 
Blut blut plut Sonne zon3 zuna 
Knochen knoX3n poan Stern StErn stErna 
Horn horn horn Wasser vas3r basar 
Obr XXX oat Stein Stain stoan 
Auge aug3 ogh-E Fener foia boar 


Tab. 4: ASJP-Listen für Standard-Deutsch und Zimbrisch 


Es fällt auf, dass im Zimbrischen eine Reihe von regulären Lautverschie- 
bungen stattgefunden haben, von denen die meisten hochdeutschen Dia- 
lekte nicht betroffen sind. So finden wir nicht nur die konsequente An- 
wendung der zweiten Lautverschiebung auf b, das zu p wird (baum-pom, 
blat-placa, blut-plut). Auffällig ist vor allem die ungewöhnliche Ver- 
schiebung von v (entspricht dem ‚w‘ in der deutschen Orthographie) zu 
b:vir-bar, cvai-sben, vas3r-basar. 

Diese Lautkorrespondenzen sind für einen geschulten Linguisten na- 
türlich unschwer zu erkennen, da sie artikulatorisch völlig natürlich sind. 
Die Levenshtein-Alinierung unterscheidet jedoch nur zwischen identischen 
und nicht-identischen Segmenten. Daher erscheint das Zimbrische weiter 
von den anderen hochdeutschen Dialekten entfernt, als es tatsächlich ist. 
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Anhand des Paares blat-placa (gesprochen ,Platza‘; das ASJP-Sym- 
bol c steht für die dentale Affrikate) (Standard-Deutsch bzw. Zimbrisch für 
Blath) lässt sich dieses Problem näher beleuchten. Hier liegt eine fast vollstän- 
dige 1-1-Korrespondenz der einzelnen Segmente vor. Die Korrespondenzen 
v-b und t-c sind völlig regulär und sind Evidenz für, nicht gegen die An- 
nahme, dass die beiden Wörter kognat sind. Die normalisierte Levenshtein- 
Distanz beträgt jedoch 0,6, ein relativ hoher Wert. Für das nicht kognate 
Wortpaar (dt.) hunt ‚Hund‘ — (zimbr.) zuna ‚Sonne‘ (das ASJP-Symbol z 
symbolisiert ein stimmhaftes S) ergibt sich z.B. eine geringere Distanz von 0,5. 

Ein vergleichbares Problem stellt sich in der Bioinformatik, wenn Pro- 
teinsequenzen aliniert werden. Idealerweise sollten solche Aminosäuren 
einander zugeordnet werden, die auf einen gemeinsamen evolutionären Vor- 
fahren zurückgehen und ggf. durch Mutationen verändert wurden. Aller- 
dings sind nicht alle Ersetzungen von Aminosäuren durch Mutationen gleich 
wahrscheinlich. Die beste Alinierung ist daher diejenige, die die Wahrschein- 
lichkeit maximiert, dass einander zugeordnete Positionen evolutionär ver- 
wandt sind.’ 

Dazu werden für jedes Paar von Aminosäuren die odds bestimmt, dass 
sie evolutionär verwandt sind. Die odds sind der Quotient aus der Wahr- 
scheinlichkeit, dass die betreffenden Säuren durch Mutationen aus demsel- 
ben Vorfahren hervorgegangen sind, und der Wahrscheinlichkeit, dass sie 
zufällig in nicht verwandten Sequenzen einander zugeordnet werden. Die op- 
timale Alinierung zweier Sequenzen ist die, die das Produkt dieser punkt- 
weisen odds maximiert. 

Üblicherweise arbeitet man mit den /og-odds, also den Logarithmen der 
odds. Die optimale Alinierung maximiert dann die Summe der einzelnen 
log-odds. Diese Summe ist ein Maß dafür, wie plausibel die Annahme ist, die 
beiden Sequenzen seien verwandt. Positive Werte bedeuten dabei, dass die 
Evidenz für eine Verwandtschaft überwiegt, und negative Werte deuten ent- 
sprechend auf ein Überwiegen der Evidenz gegen eine Verwandtschaft hin. 

Die optimale Alinierung lässt sich mit Hilfe des ,Needleman-Wunsch- 
Algorithmus‘ (Needleman/Wunsch 1970) effizient berechnen. 

Analog ist es auch für verschiedene Lautpaare unterschiedlich wahr- 
scheinlich, dass sie durch reguläre Lautverschiebungen auf eine gemeinsame 
Urform zurückgehen. Wie in Jäger (2013) dargestellt, lassen sich die ent- 
sprechenden odds durch Heuristiken anhand der ASJP-Daten abschätzen. 

Für die Zuordnung b-p betragen die geschätzten /og-odds 0,46, eine sol- 
che Korrespondenz ist also als (schwache) Evidenz für eine etymologische 
Verwandtschaft der entsprechenden Wörter zu werden. Der Wert für t-c 
ist 0,08, also ebenfalls leicht positiv. 


° Für eine ausführliche Darstellung der bioinformatischen Methoden der Sequenzalinierung 


siehe z.B. Durbin et al. (1989). 
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Bei der Alinierung von hunt und zuna werden h und z einander zu- 
geordnet. Die /og-odds dafür sind mit —0,91 deutlich negativ, wie auch die 
Alinierung t-a mit —8,14. Die aggregierten /og-odds für das Wortpaar 
blat-placa betragen 4,05, wahrend hunt-zuna mit —3,76 bewertet wird. 
Dieses Beispiel illustriert, dass die Abschatzung von Wortahnlichkeiten via 
log-odds wesentlich besser geeignet ist als die normalisierte Levenshtein- 


Distanz, um kognate Wortpaare von nicht-kognaten zu unterscheiden. 


ungewichtet gewichtet 
Schwäbisch 26,13 35,44 
Zimbrisch 20,28 31,86 
Niederländisch 23,75 29,76 
Englisch 17,45 22,14 
Urindoeuropäisch 10,26 15,86 
Latein 9,23 12,54 
Spanisch 8,95 9,48 
Hindi 8,70 12,35 
Russisch 8,36 11,89 
Türkisch 6,33 5,76 
Ungarisch 6,84 7,57 


Tab. 5: Ähnlichkeiten zum Standard-Deutschen: Levenshtein-Alinierung vs. gewichtete Alinierung 


SCOTS 

ENGLISH 
PLAUTDIETSCH 
LIMBURGISH 
NORTHERN_LOW_SAXON 
EASTERN_FRISIAN 
SWABIAN 
SAXON_UPPER 
STANDARD_GERMAN 
CIMBRIAN 
LUXEMBOURGISH 
BERNESE_GERMAN 
ALSATIAN 
NORTH_FRISIAN_AMRUM 
FRISIAN_WESTERN 
BRABANTIC 

DUTCH 

AFRIKAANS 
WESTVLAAMS 
FRANS_VLAAMS 
ZEEUWS 


Abb. 6: Stammbaum der westgermanischen Sprachen: kalibrierte gewichtete Alinierung 
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Die Berechnung der kalibrierten Ahnlichkeit zweier Sprachen auf der Basis 
der aggregierten /og-odds kann dann analog zum entsprechenden Vorgehen 
mit Levenshtein-Distanzen erfolgen. 

Es ist instruktiv, die auf der Basis der /og-odds abgeschätzten Ähnlich- 
keitswerte für die in Tabelle 3 aufgeführten Beispielsprachen/-dialekte mit 
den dort gegebenen Werten zu vergleichen (vgl. Tabelle 5). Die enge Ver- 
wandtschaft des Zimbrischen zum Standard-Deutschen, im Vergleich etwa 
zum Niederländischen, wird mit der neuen Methode korrekt erkannt. Dem- 
entsprechend ist der auf der Basis der gewichteten Alinierung gewonnene 
Stammbaum (Abbildung 6) genauer als die bisher betrachteten Versionen. 
Insbesondere wird das Zimbrische hier korrekt als Teil der hochdeutschen 
Dialektgruppe identifiziert. 


5. Anwendungen auf größere Datenmengen 


Das im vorherigen Abschnitt dargestellte Verfahren wurde auf eine ausge- 
wählte Teilmenge der (lebenden oder erst kürzlich ausgestorbenen) Spra- 
chen und Dialekte in der ASJP-Datenbank angewandt. Ausgewählt wur- 
den alle europäischen und asiatischen Sprachen (mit den unten genannten 
Ausnahmen) einschließlich der in Afrika gesprochenen afro-asiatischen 
Sprachen. Außerdem wurden die amerikanischen eskimo-aleutischen und 
Na-Dené-Sprachen sowie die austronesischen Sprachen in die Auswahl 
aufgenommen. Die Auswahl begründet sich damit, dass verschiedentlich in 
der Literatur vorgeschlagen wurde, es gebe tiefe genetische Beziehungen 
der afro-asiatischen, eskimo-aleutischen oder Na-Dené-Sprachen zu euro- 
päischen bzw. asiatischen Sprachen. Nach der populären, aber kontrover- 
sen, nostratischen Hypothese (siehe z.B. Bomhard/Kerns 1994) bilden Afro- 
Asiatisch, Indoeuropäisch, Uralisch, Altaisch, Kartwelisch, Jukagirisch, 
Eskimo-Aleutisch, Tschuktscho-Kamtschadalisch und möglicherweise Dra- 
widisch eine Makro-Familie. Weiterhin wurde (etwa in Nikolaev 1991) eine 
tiefe Verwandtschaft zwischen den nordkaukasischen Sprachen und den 
Na-Dené-Sprachen postuliert. Da eine Verwandtschaft von Na-Dene mit 
den sino-tibetischen Sprachen schon verschiedentlich angenommen wurde 
(u.a. in unveröffentlichten Arbeiten von Edward Sapir; siche Campbell/ 
Poser 2008), wird teilweise auch angenommen, dass die Na-Dené-Sprachen 
gemeinsam mit Sino-Tibetisch, möglicherweise Burushaski, den nordkau- 
kasischen Sprachen und eventuell auch Baskisch eine Makro-Familie bilden. 
Nicht zuletzt gibt es eine Reihe von Vorschlägen, die das Austronesische 
mit südostasiatischen Sprachen in Beziehung setzen, so z.B. der Vorschlag 
von Benedict (1975), dass Austronesisch und Tai-Kadai eine Makro-Familie 
namens Austro-Tai bilden. 


Unauthenticated 
Download Date | 3/22/19 12:21 PM 


212 Gerhard Jager 


Abb. 8: Automatisch erstellter Stammbaum der indoeuropäischen Sprachen: schematische 


Darstellung 
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Die isolierten Sprachen Baskisch, Ainu, Koreanisch, Shompen, Nahali, und 
Kusunda wurden ausgeklammert, da dafür nur jeweils eine Wortliste vorliegt 
und diese geringe Datenmenge keine statistisch aussagekräftigen Schlüsse 
zulassen. Gleichfalls ausgeschlossen wurden Japanisch und die drawidische 
Sprache Brahui, da die entsprechenden ASJP-Wortlisten ungewöhnlich viele 
klar identifizierbare Lehnwörter enthalten (beim Japanischen aus dem Chi- 
nesischen, bei Brahui aus indo-arischen Sprachen), die das gewonnene Bild 
verfälschen. 

Insgesamt enthält die verwendete Auswahl 1.323 Wortlisten. Daraus 
wurde mit der im letzten Abschnitt dargestellten Methode automatisch ein 
Stammbaum erstellt. 

Der die indoeuropäischen Sprachen umfassende Teilbaum ist in Abbil- 
dung 7, und in einer schematischen Darstellung in Abbildung 8 dargestellt. 
Bemerkenswerterweise werden die etablierten Untergruppen des Indoeuro- 
päischen ausnahmslos korrekt erkannt — keine einzige Sprache wird falsch 
klassifiziert. Auch die weitgehend akzeptierten größeren Gruppierungen 
Indo-Iranisch und Balto-Slanisch werden erkannt. 

In welcher Beziehung diese Untergruppen zueinander stehen, ist seit 
dem 19. Jahrhundert in der Indoeuropäistik kontrovers. Für einige in dem 
automatisch generierten Stammbaum vorgeschlagene Strukturen, wie z.B. 
die enge Verbindung des Germanischen mit dem Balto-Slawischen gibt es 
entsprechende Vorschläge in der Literatur (z.B. Schleicher 1861). Um die 
Verlässlichkeit derartiger Hypothesen abzuschätzen, wurde eine statistische 
Analyse vorgenommen. Zu der automatisch gewonnenen Distanzmatrix 
wurde 1.000 mal zufällig verteilte kleine Rauschwerte addiert und aus den 
verrauschten 1.000 Matrizen jeweils ein phylogenetischer Baum berechnet. 
Für jede Verzweigung im Referenzbaum wurde bestimmt, wie häufig die 
entsprechende Gruppierung in den 1.000 Varianten vorkommt. Die in den 
Abbildungen angegebenen Zahlen geben die relativen Häufigkeiten. Diese 
Werte sind also als Maß für die Konfidenz der jeweiligen Gruppierung zu 
werten. 

Für alle etablierten Untergruppen besteht eine Konfidenz von nahezu 
100%. Auch für das Balto-Slawische ist die Konfidenz 100% und für das 
Indo-Iranische 99%. Die anderen höheren Gruppierungen haben alle eine 
geringere Konfidenz, mit der Ausnahme der Zusammenfassung von Balto- 
Slawisch und Germanisch in eine Gruppe. Dieser Effekt könnte allerdings 
auch auf jahrhundertelangen Sprachkontakt zurückzuführen sein. 

Der Stammbaum für die gesamte untersuchte Auswahl an Sprachen 
und Dialekten ist in Abbildung 9 schematisch dargestellt. Auch hier stimmt 
die automatisch erzielte Klassifikation gut mit der üblichen Expertenklassi- 
fikation überein. Es gibt insgesamt nur drei Abweichungen von der WALS- 
Klassifikation in Sprachfamilien: 
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— Die austronesische Sprache Enggano wird falschlicherweise mit den 
Eskimo-Aleutischen Sprachen gruppiert, 

— die sibirische Sprache Niwchisch wird der afroasiatischen Familie zuge- 
ordnet, und 

— die sibirische Sprache Ket wird den Na-Dené-Sprachen zugeordnet, als 
direkte Schwestersprache der Na-Dené-Sprache Tlingit, die zusammen 
mit den athapaskischen Sprachen die Na-Dene-Familie bildet. 


Asiatisch: 0,86 


Nordwest-Kaukasisch:0,92 
Athabaskisch:1, 


Nord-Kaukasisq 


Abb. 9: Automatisch erstellter Stammbaum fiir die eurasiatischen und angrenzenden Sprachen 


Die Zuordnung von Ket zu Na-Dene ist allerdings vermutlich sachlich kor- 
rekt, wie kürzlich in Vajda (2010) überzeugend dargelegt wurde. 

Die meisten etablierten Sprachfamilien haben eine hohe Konfidenz; 
Ausnahmen sind v.a. Afro-Asiatisch, das ja nur zusammen mit Niwchisch 
eine Einheit bildet, die lediglich eine Konfidenz von 8% erreicht. Für Aus- 
tronesisch (13%) und Sino-Tibetisch (29%) ist die Konfidenz auch relativ 
gering. Insgesamt wird die traditionelle Einteilung in Sprachfamilien jedoch 
gut repliziert. 

Darüber hinaus finden sich einige suggestive Gruppierungen jenseits 
der etablierten Sprachfamilien. Die stärkste Evidenz, nämlich 84%, gibt es 
für die Zusammenfassung der Nordwest-Kaukasischen und der Nordkauka- 
sischen Sprachen zu einer übergeordneten Einheit. Dieser Vorschlag wurde 
schon verschiedentlich in der Literatur vorgebracht (siehe z.B. Nikolaev/ 
Starostin 1994), ist aber nicht allgemein akzeptiert. Die bereits erwähnte 
hypothetische Austro-Tai-Einheit hat eine Konfidenz von 16%. Interessan- 
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terweise bilden auch die Na-Dené-Sprachen und die kaukasischen Sprachen 
(unter Einschluss des Ket) eine Einheit, mit Konfidenz von 11%. Es gibt 
allerdings keine Evidenz dafür, dass diese Einheit einer größeren dené-sino- 
kaukasischen Makrofamilie wäre. Die dené-kaukasische Einheit ist die Grup- 
pierung, die als erste von der Wurzel des Baumes (symbolisiert durch den 
weißen Kreis in der Mitte der Grafik) abzweigt. 

Die hypothetische nostratische Makrofamilie wird — unter Ausschluss 
der drawidischen Sprachen — ebenfalls als Einheit dargestellt, allerdings mit 
sehr geringer Konfidenz von 4%. 


6. Zusammenfassung 


Das primäre Ziel dieser Arbeit war es, zu demonstrieren, dass Lexikostatis- 
tik linguistisch belastbare Ergebnisse liefert, wenn sie mit modernen — das 
heißt: computergestützten und statistischen — Mitteln betrieben wird. In der 
hier vorgestellten Fallstudie werden die traditionellen Finheiten der Sprach- 
klassifikation weitgehend korrekt repliziert. Tendenziell ist es so, dass sol- 
che Einheiten, die durch die komparative Methode sicher demonstriert 
werden können, auch mit einer hohen Konfidenz erkannt werden. Darüber 
hinaus finden sich einige der kontroverseren Vorschläge für tiefe genetische 
Beziehungen zwischen Sprachen, wie Nostratisch oder Dené-Kaukasisch, in 
der automatischen Klassifikation wieder, allerdings mit wesentlich gerin- 
gerer Konfidenz. Dieser Befund deutet darauf hin, dass die Lexikostatistik 
letztendlich aus ähnlichen Daten, wie sie in der traditionell-komparativen 
Klassifikation verwendet werden, ähnliche Schlüsse zieht, auch wenn die Art 
der Inferenz eine andere ist. 
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